查看原文
其他

综述丨基于深度学习的手语识别综述

张淑军,张群等 电子与信息学报 2022-07-02



手语是一种重要的人类肢体语言表达方式,包含信息量多,是聋哑人和健听人之间沟通的主要方式。手语学习有利于听觉障碍者与听觉障碍者、健听人与听觉障碍者之间的沟通和教育。因此,有利于手语教学和应用的手语识别技术被迫切需要。

手语识别是借助计算机自动将手语信号转换为文本或语音的过程。根据手语获取方式的不同,分为基于数据手套和基于视觉的手语识别,前者可以实时采集手势的3维运动信息和时序变化,然后应用识别算法进行处理,识别速度快,准确率高,但是设备复杂,价格昂贵,且对操作者有约束,佩戴不方便,因此基于视觉的手语识别成为主流。

近年来,手语识别不断发展,而大数据的时代背景也为手语识别带来新的机遇。基于深度学习、挖掘人类视觉与认知规律的手语识别技术成为必然。




今日,小编推荐青岛科技大学张淑军教授团队发表于《电子与信息学报》2020年42卷第4期的综述:基于深度学习的手语识别综述,该文首先介绍了近年来基于深度学习的手语识别技术,从孤立词与连续语句两个分支展开详细的算法阐述与分析。然后归纳总结了目前国内外常用手语数据集及评估标准。最后探讨了研究挑战与未来发展趋势。




论文看点1基于深度识别的手语识别技术


手语识别涉及视频采集和处理、计算机视觉、人机交互、模式识别、自然语言处理等多个研究领域,是一项具有高难度的挑战性课题。基于深度学习的孤立词手语识别与连续语句手语识别。


图1 总体分类图


>>>>基于深度学习的孤立词手语识别


孤立词手语识别的对象是以视频表达的单个孤立手语词汇相对连续语句而言,孤立词手语视频时长较短,语义简单明确,识别主要围绕如何更有效地描述手语的底层特征、降低误判率展开。从时序信息的处理上,将技术方法分为基于卷积神经网络、3维卷积神经网络或循环神经网络3种网络的主体框架。此方面的研究国内以中国科学院计算所、中国科学院自动化所、中国科学技术大学、西安电子科技大学等比较活跃,国外以亚琛工业大学、根特大学等成果较多。

>>>>基于深度学习的连续语句手语识别

相比于孤立词手语识别,连续语句的识别需要建立更为可靠的长期时序依赖。最初的连续语句识别是在单个孤立词识别的基础上进行研究,需要用到时序分割的相关算法,但由于时序分割过程复杂、误判率高等问题,近年来学者们逐渐绕开了时序分割,将语音识别的时序对齐算法及编解码网络用于本领域的研究,其中包括基于CTC时序算法和用于长时序建模的编解码网络,在此基础上实现连续语句的手语识别。

2手语数据集的发展和简述




手语识别问题本质上属于人工智能范畴,人工智能的3大核心驱动力包括:算力、算法和大数据。没有大规模的数据,深度学习方法就无法发挥其优势作用。因此,基于深度学习的手语识别技术的发展也必然依附于大规模的手语数据集,以进行算法研究、对比分析与标准评估。

>>>>RWTH-PHOENIX-Weather

      

图2 RWTH德国手语数据样例


>>>>CSL数据集


图3 CSL中国手语数据样例


>>>>Chalearn数据集


图4 Chalearn数据集每帧的视觉方式






总结与展望

手语识别在计算机视觉、模式识别、人机交互、虚拟现实等相关领域有着重要的研究价值,尽管近年来深度学习技术已经很大程度上提高了手语识别的精度与速度,但距离真正实时、鲁棒、精准的手语识别与翻译的应用目标,还有一定的空间。

(1) 手语行为本身的灵活性与细节性:手语是由上肢和手部动作形成的行为序列,手部是人体最灵活的肢体,其内外、正反、距离上肢的远近、角度以及五指的动作等,都对手语语义有影响。部分手语还涉及嘴唇及面部表情的配合。因此,识别准确率与实时性仍是手语识别追求的目标。

(2) 手语行为受背景干扰、光照、观察角及操作者规范程度等的影响:目前的数据集中,操作者通常都是整体站立不动、只有上肢和手部运动,但在现实应用中存在复杂背景、多人遮挡、光照条件变化、操作者全身运动、打手语不够标准等各种情况,为识别带来更大的难度。

(3) 连续语句中的长时时序关系及孤立词之间过渡帧的自由性:连续语句手语识别需要挖掘长时期的时序依赖,以便建立语义结构,同时需要适应空间信息的复杂度以及孤立词之间过渡帧的自由性与随意性。

由于深度学习本质上属于数据驱动,基于深度学习的手语识别技术随着大数据量的积累与深入挖掘,必定会有进一步的发展。未来手语识别将随着手语本身的特性、基准数据集、识别算法以及高效算力等多方面的推进,取得新的突破。

未来手语识别随着不同领域的交叉融合将会得到更大的发展期待更多的学者加入手语识别的研究中,使得手语识别的研究成果能够真正服务于大众,提高整个社会的智能信息化水平。


图片来自于网络

全文链接

点击此处阅读全文


作者简介

张淑军:女,1980年生,副教授,研究方向为计算机视觉、人工智能、图像处理、虚拟现实等。

张   群:女,1994年生,硕士生,研究方向为计算机视觉。

李   辉:男,1984年生,副教授,研究方向为计算机视觉。



本文系《电子与信息学报》独家稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发


END


编辑:李寅、余蓉

校对:马秀强、刘艳玲

审核:陈倩



温馨提示

如果您关注的公众号较多,不能及时看到本刊的推送,建议您给本刊公众号加星标或置顶。【点击文章标题下方的蓝色字体“电子与信息学报”进入本刊公众号,点击右上角“...”选择设为星标,置顶公众号】

往期推荐

第一届电子与信息科学前沿论坛火热报名中

《电子与信息学报》青年编委招募令

综述 | 基于深度学习的故障诊断方法综述

综述丨一文梳理后量子对称密码的研究现状与发展趋势

期刊速递丨《电子与信息学报》2021年第3期目次

第一届电子与信息科学前沿论坛邀请函

学术报告 | 智能网联交通系统的关键技术

学术报告 | 激光雷达和射频/毫米波模拟前端芯片研究

前沿专题丨非平稳非高斯统计信号处理理论与应用

专家报告丨硅基毫米波雷达收发机芯片设计技术

综述丨基于模式识别的生物医学图像处理研究现状

中科院空天院优青(海外)项目申报邀请函

综述 | 硅基毫米波雷达芯片研究现状与发展

爆款综述 | 卷积神经网络在雷达自动目标识别中的研究进展

科普讲堂 | 互联网究竟是怎么诞生的?

新年首赞!致谢审稿人

关于粉丝迁移至本公众号的说明

关于颁布智能制造工程技术人员等3个国家职业技术技能标准的通知

爆款综述 | 智能网联交通系统的关键技术与发展

《电子与信息学报》简介

博观约取,厚积薄发

写作宝典:想写好一篇科技论文吗?快看过来!

科普讲堂:从0G到5G,移动通信的百年沉浮

学术报告:基于混沌载波的物联网传输理论发展

新年首期专题:面向6G的信息理论与信号处理技术前沿



声明

欢迎评论、转载和分享本公众号原创内容,转载请与本号联系授权,标注原作者和信息来源《电子与信息学报》。

本号发布信息旨在传播交流。如涉及文字、图片、版权等问题,请在20日内与本号联系,我们将第一时间处理。《电子与信息学报》拥有最终解释权。


号外

为促进学术交流,拉进编辑团队和作者,读者,专家之间的距离,电子与信息学报2021年正式开通4个微信学术讨论群啦,欢迎大同行小同行们扫码入群转发推荐扫码可选择通信与信号信息处理、网络与信息安全、自动化与模式识别、电路与系统技术等4个专业方向入口:

由于微信群既定机制,200人以后无法直接扫码,只能通过邀请入群。如此,请与您的好友互邀,更欢迎您通过加小编微信入群。进群请更改真实姓名+单位,欢迎把我们推荐给您的同行朋友们,大家一起寻找志同道合的伙伴!




关注我们


《电子与信息学报》

官方订阅号





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存